\documentclass[a4paper,french,12pt]{report}

%\usepackage{fullpage}
\usepackage{lmodern}
\usepackage{xspace}
\usepackage{verbatim}
\usepackage{template_tdmm}
\usepackage{hyperref}
\usepackage[usenames,dvipsnames]{color}

\usepackage{ucs}
\usepackage[utf8x]{inputenc}
%\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}

\usepackage[french]{babel}

\pagestyle{plain}

\usepackage{graphicx}
\usepackage{subfigure}
\DeclareGraphicsExtensions{.pdf,.eps,.jpg,.png,.gif}

\usepackage{color}
\definecolor{lightgrey}{rgb}{0.97,0.97,0.97}
\definecolor{grey}{rgb}{0.5,0.5,0.5}
\definecolor{darkgrey}{rgb}{0.3,0.3,0.3}

\usepackage{listings}
\usepackage{listingsutf8}
\lstloadlanguages{R}
\lstdefinestyle{listing}{
  language=R,
  captionpos=t,
  inputencoding=utf8/latin1,
  extendedchars=true,
  resetmargins=true,
%  frame=single,
  numbers=left,
  numberstyle=\tiny,
  numbersep=5pt,
  breaklines=true,
  breakatwhitespace=true,
  showspaces=false,
  showstringspaces=false,
  showtabs=false,
  tabsize=2,
  basicstyle=\footnotesize\ttfamily,
  backgroundcolor=\color{lightgrey},
  keywordstyle=\color{darkgrey}\bfseries,
  commentstyle=\color{grey},
  identifierstyle=\color{black},
  stringstyle=\color{darkgrey},
  numberstyle=\color{grey},
}
\lstset{style=listing}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%





\newcommand{\chapterEt}[1]{\chapter*{#1}\addcontentsline{toc}{chapter}{#1}}

\definecolor{insa_gray}{RGB}{112,120,125}


\title{Rapport de projet}
\author{Mehdi \textsc{Addar} \\ 
		Manuel \textsc{Bouillon} \\ 
		Sylvain \textsc{Dousset} \\ 
		Maxime \textsc{Havez} \\ 
		Bertrand \textsc{Le Marouille} \\ 
		Aurélien \textsc{Texier}}

\begin{document}

\maketitle

\tableofcontents

\chapterEt{Introduction}

Le besoin de conférer une plus grande autonomie à la machine, de la substituer à l’individu pour la réalisation de tâches répétitives, a contribué au développement du traitement automatique des données, et en particulier la reconnaissance des formes. Cette discipline, qui emprunte des savoir-faire à l’informatique, aux mathématiques appliquées et à la statistique, est à présent reconnue comme domaine de recherche à part entière. L’un des thèmes majeurs de ce domaine de recherche, la classification, a notamment pour objectif de construire un système, appelé classifieur, capable de prédire automatiquement le type d’un phénomène observé, sur la base d’exemples.

Ces dernières années, un nombre significatif de travaux a porté sur la résolution de problèmes de classification par combinaison de classifieurs. Ainsi, plusieurs classifieurs entraînés à résoudre le même problème de classification peuvent être combinés, dans le but d’améliorer leurs performances individuelles.


\chapter{Présentation}

L’accord des crédits dans le domaine bancaire est un problème récurrent. De ce fait, les banques portent un intérêt tout particulier à toute information pouvant permettre de prédire le remboursement d’un prêt ou non. En effet, on peut facilement se rendre compte que la possibilité pour un organisme bancaire de prédire si un client va rembourser son crédit avec un risque d'erreur faible est un enjeu primordial. Ces derniers pourraient alors se délivrer des problèmes de remboursements difficiles, alors que le crédit est pour eux une importante source de profit. 

L’objectif du \textit{credit scoring} est de modéliser, puis de prédire la probabilité de remboursement d’un prêt, et ce à partir de certaines covariables. Dans un modèle, une covariable est une variable qui joue un rôle explicatif, sa variation n'est pas étudiée en tant que telle mais comme éventuel facteur à l'origine de la variation des variables principales, sujettes de l'investigation. 

\section{Choix de l'outil}

%Par ailleurs, comme dans toute étude, il faut savoir maîtriser les outils dont on dispose.  
Nous avons mené notre étude par le biais du logiciel d'analyse statistique R. Le choix de ce logiciel nous a permis d’apprendre à manipuler un outil usuel dans le domaine de la statistique. Le fait d'être libre et complet lui donne en effet un certain avantage par rapport à ses concurrents. 

\section{Présentation des données}

Les données sur lesquelles nous avons été amenés à travailler correspondent à des données d’une banque Allemande. Le fichier comporte 1000 individus et chaque individu est décrit par la variable binaire "kredit" qui correspond au remboursement du prêt (1 si le prêt a correctement été remboursé, 0 sinon), ainsi que 20 autres covariables susceptibles d’influencer ce remboursement.\\



Voici une description de ces différentes variables :
\begin{description}
\item[\texttt{kredit}] 1 si le client est solvable, 0 sinon
\item[\texttt{laufkont}] Compte courant
\item[\texttt{laufzeit}] Durée en mois (métrique)
\item[\texttt{dlaufzeit}] Durée en mois (par catégories)
\item[\texttt{moral}] Paiement des crédits précédents
\item[\texttt{verw}] But du crédit
\item[\texttt{hoehe}] Montant total du crédit en Deutshe Mark
\item[\texttt{dhoehe}] Montant total du crédit en Deutshe Mark (par catégories)
\item[\texttt{sparkont}] Montant des réserves
\item[\texttt{beszeit}] Durée du dernier emploi
\item[\texttt{rate}] Acompte en pourcentage du revenu
\item[\texttt{famges}] Situation familiale
\item[\texttt{buerge}] Existence d'un débiteur
\item[\texttt{wohnzeit}] Durée du ménage actuel
\item[\texttt{verm}] Biens (par catégories)
\item[\texttt{alter}] Age (métrique)
\item[\texttt{dalter}] Age (par catégories)
\item[\texttt{weitkred}] Autres crédits courants du client
\item[\texttt{wohn}] Type de l'habitation
\item[\texttt{bishkred}] Nombre des précédents crédits (comprenant le courant)
\item[\texttt{beruf}] Profession
\item[\texttt{pers}] Nombre de personne s'occupant du crédit
\item[\texttt{telef}] Téléphone
\item[\texttt{gastarb}] Travail a l'étranger
\end{description}

Vous pouvez par ailleurs retrouver une description complète des variables en suivant ce \href{http://www.stat.uni-muenchen.de/service/datenarchiv/kredit/kreditvar_e.html}{lien}.


\section{Présentation de la méthode de classification}

Dans un premier temps nous avons commencé par mettre en place un classifieur à partir des données dont nous disposons. Nous nous sommes basés sur les travaux précédemment réalisés par nos confrères de l'ENSAI \footnote{École Nationale de la Statistique et de l'Analyse de l'Information}, ce qui nous à ainsi permit d'effectuer une première régression logistique sur la variable d'étude (kredit). Nous ne rentrerons pas dans les détails de l'analyse, à savoir mise en évidence du nombre de variable à inclure dans le modèle, choix des covariables, etc. 

La figure \ref{resLog} présente les résultats obtenus par le classifieur, dont le modèle comporte les covariables : \texttt{laufkont}, \texttt{hoehe}, \texttt{bmoral}, \texttt{beszeit}.
%(et nous ne justifierons pas la démarche), 

L'approche que nous souhaitons donc réaliser devra permettre d'obtenir de meilleurs résultats que ce classifieur, à savoir améliorer son taux d'erreur, par le biais de combinaisons de plusieurs classifieurs. En effet, en multipliant l'information issue de plusieurs classifieurs, on devrait vraisemblablement obtenir un résultat plus juste.

\begin{figure}
\begin{center}
\includegraphics[width=0.7\textwidth]{ressources/resensai}
\caption{Resultat de la régression logistique - modèle :  \texttt{laufkont}, \texttt{hoehe}, \texttt{bmoral}, \texttt{beszeit}}
\label{resLog}
\end{center}
\end{figure}

\chapter{Mise en place d'une équipe de classifieurs}

Les travaux réalisés par les étudiants de l'ENSAI ont permis de démontrer que les modèles les plus adaptés comportent en fait 4 covariables (étude du BIC\footnote{Bayesian Information Criterion}, procédure de selection forward; etc.).
Notre travail consiste donc à étudier les différentes méthodes qui permettent de constituer les équipes de classifieurs, et d'en automatiser au maximum la mise en place. 

% ici classification supervisé (logistic) mais il exise d'autre methode : réseau de neurones, arbres de décision, etc.

\section{Méthode du \textit{favorite class model}}

La méthode du \textit{favorite class model} consiste à créer une équipe constituée de N classifieurs (lorsque N>2), où N est le nombre de classes de la variable étudiée (\texttt{kredit} dans notre cas). Sachant que notre variable est binaire, l'équipe ne comportera qu'un seul et unique classifieur. Le choix du classifieur consiste à prendre en compte les 4 covariables les plus fortement corrélées avec la variable étudiée, puisque c'est avec ce nombre de covariables qu'on obtient les meilleurs modèles. Pour notre application, le choix était très simplifié puisqu'il s'agissait simplement de considérer les 4 variables les plus corrélées avec la variable \texttt{kredit}. 

L'analyse des corrélations des covariables avec la variable \texttt{kredit} donne les résultats présentés en figure \ref{fig2}.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|}
	\hline
	Covariable & Description\\ 
	\hline
	kredit & 1\\ 
	\hline
	laufkont & 0.350847483\\
	\hline 
	moral & 0.228784733 \\
	\hline  
	laufzeit & 0.214926665\\
	\hline 
	sparkont & 0.178942736\\
	\hline 
	hoehe & 0.154740146\\
	\hline 
	verm & 0.142611973\\
	\hline 
	beszeit & 0.116002036\\
	\hline 
	weitkred & 0.109844099\\
	\hline 
	alter & 0.091271949\\
	\hline 
	famges & 0.088184301\\
	\hline 
	gastarb & 0.082079499\\
	\hline 
	rate & 0.072403937\\
	\hline  
	bishkred & 0.045732489\\
	\hline  
	telef & 0.036466190\\
	\hline  
	beruf & 0.032735001\\
	\hline 
	buerge & 0.025136768\\ 
	\hline 
	wohn & 0.018118912\\
	\hline  
	verw & 0.017978870\\
	\hline  
	pers & 0.003014853\\
	\hline  
	wohnzeit & 0.002967159\\ 
\end{tabular}
\end{center}
\caption{Valeurs absolues des corrélations avec la variable Kredit}
\label{fig2}
\end{figure}

Le classifieur sera donc constitué des variables : \texttt{laufkont}, \texttt{moral}, \texttt{laufzeit} et \texttt{sparkont}. 


\textit{Remarque : } Une fois l'équipe de classifieurs constituée, il est intéressant d'analyser ses caractéristiques telles que son BIC (Bayesian Information Criteria), ou encore son taux d'erreur.

% Préparation des données et \textit{data management}

\section{Méthode du \textit{random choice}}

Pour construire un classifieur, on tire aléatoirement 4 covariables parmi les $D$ variables les plus significatives. C'est de cet aléa dans le tirage des variables que vient le nom de ce modèle. Il a fallu définir un seuil afin d'avoir un certain nombre ($D$) de covariables parmi lesquelles choisir celles que l'ont utiliserait pour concevoir le modèle.
Nous avons opté pour un seuil de  $0,1$, ce qui correspond à $D=7$. Ainsi, chaque variable fortement corrélée avec la variable \texttt{kredit} est susceptible d'appartenir au modèle. Ainsi, d'après la figure \ref{fig2} précédente qui répertorie les valeurs absolues des corrélations avec la variable kredit, on peut extraire la liste des 7 covariables : \texttt{laufkont, moral, laufzeit, sparkont, hoehe, verm, beszeit}.

A cette étape, sachant que le modèle doit comporter idéalement 4 covariables, nous avons possiblement 4 parmi 7 classifieurs possibles (35 classifieurs sont obtenus par le biais des différentes combinaisons de covariable). L'objectif, à ce stade, serait donc d'extraire les classifieurs les plus significatifs. A cet effet, la diversité $\Delta(Cl1,Cl2)$, dont le caclul est détaillé ci-dessous, permet de mesurer la différence entre deux classifieurs. Le calcul de la diversité entre les 35 classifieurs est stocké dans une matrice de taille 35x35.\newline

Calcul de la diversité entre 2 classifieurs Cl1, et Cl2: 
\[  \Delta(Cl1,Cl2) = \frac{ab-dc}{ab+dc} \]

\begin{itemize}	
	\item $a$ : nombre d’individus bien classés à la fois par $Cl1$ et $Cl2$ 
	\item $b$ : nombre d’individus mal classés à la fois par $Cl1$ et $Cl2$
	\item $c$ : nombre d’individus bien classés par $Cl1$ et mal classés par $Cl2$
	\item $d$ : nombre d’individus bien classés par $Cl2$ et mal classés par $Cl1$
\end{itemize}

Remarque : on dit que deux classifieurs sont semblables si $\Delta$ est proche de $1$ et ils sont dits très différents si proche de $-1$.\newline

La matrice symétrique de la diversité permet ensuite de faire des clusters de classifieur. Le logiciel R possède d'ailleurs un package adapté à ce genre d'étude (package cluster). Le dendogramme obtenu est présenté en figure \ref{fig3}.

\begin{figure}
\begin{center}
\includegraphics[width=\textwidth]{ressources/dendogramme.png}
\caption{Dendogramme des classifieurs de la méthode random choice (selon la diversité)}
\label{fig3}
\end{center}
\end{figure}  

Le dendogramme permet de regrouper certains classifieurs. On devrait constituer l'équipe en ne gardant qu'un seul classifieur par groupe. Cependant l'automatisation d'un tel traitement n'étant pas réalisable dans le temps imparti, nous avons constituer une équipe avec la totalité des classifieurs. La méthode du random choice nous permet en effet d'utiliser les résultats des 35 classifieurs.


\chapter{Classifieur synthétique}

Maintenant que nous avons monté une équipe de classifieurs, nous devons les faire collaborer pour prendre une décision, c'est l'étape dite de fusion. Il existe plusieurs méthodes qui permettent ainsi de constituer un classifieur synthétique, en effectuant un choix de sélection dit \textit{"choix social"}. Dans un premier temps nous verrons les méthodes dites composante par composante, puis nous étudierons une méthode basée sur la distance au profil moyen.

Notre objectif tout au long de cette partie étant de constituer un classifieur synthétique pour la méthode du \textit{random choice}. Les données sur lesquelles nous sommes amenés à travailler sont représentées en partie dans la figure \ref{fig4}.

\begin{figure}
\begin{center}
\begin{tabular}{ccccccccc}
N Individu & C1 & C2 & C3 & C4 & C5 & … \\ 
168 & 0.6624233 & 0.5568947 & 0.7281455 & 0.5707234 & 0.6906260 & … \\ 
229 & 0.5571941 & 0.4948719 & 0.5983819 & 0.5530526 & 0.6411214 & … \\ 
25 & 0.6624233 & 0.5568947 & 0.7594448 & 0.6113005 & 0.6906260 & … \\ 
199 & 0.7819146 & 0.7327105 & 0.8459134 & 0.7366268 & 0.7587682 & … \\ 
53 & 0.5406285 & 0.4092000 & 0.4418201 & 0.4266184 & 0.5687762 & … \\ 
182 & 0.4233414 & 0.4704864 & 0.6186660 & 0.6101743 & 0.3991707 & … \\ 
95 & 0.8518018 & 0.5568947 & 0.6205824 & 0.4454348 & 0.8619665 & … \\ 
141 & 0.7819146 & 0.6171928 & 0.8459134 & 0.7366268 & 0.7587682 & … \\ 
218 & 0.6624233 & 0.5568947 & 0.5811793 & 0.4044127 & 0.6906260 & … \\ 
… & … & … & … & … & … & … \\ 
\end{tabular}
\end{center}
\caption{Matrice des scores pour les individus selon les classifieurs de l'équipe}
\label{fig4}
\end{figure}

\section{Méthodes composante par composante}

Les méthodes composante par composante permettent d'extraire un classifieur qui se base sur les différents résultats des classifieurs par individus. Nous décrirons les principales méthodes couramment utilisées, telles que la méthode du minimum, du maximum, ou encore de la moyenne. Nous étudierons à chaque fois les résultats obtenus qui nous permettrons donc d'évaluer nos classifieurs synthétiques.

\subsection{Méthode du \textit{Minimum}}

Nous utilisons ici nos 35 classifieurs sélectionnés pour réaliser un classifieur synthétique grâce à la méthode du minimum.
Pour un individu donné, on dispose de la valeur associée à cet individu pour chaque classifieur. On observe ensuite la valeur minimale parmi les 25 données. Puis le classifieur synthétique prendra cette valeur minimale pour l'individu donné. Un exemple est donné en figure \ref{fig5} : on crée le classifieur synthétique CS à partir des classifieurs C1,C2 et C3.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
N Individu & C1 & C2 & C3 & CS \\ 
\hline
1 & 0.6 & \textbf{0.5} & 0.7 & \textbf{0.5}\\ 
\hline
2 & 0.5 & \textbf{0.4} & 0.6 & \textbf{0.4}\\ 
\hline
3 & 0.6 & \textbf{0.5} & 0.7 & \textbf{0.5}\\ 
\hline
4 & \textbf{0.6} & 0.7 & 0.8 & \textbf{0.6}\\ 
\hline
5 & 0.5 & 0.4 & \textbf{0.3} & \textbf{0.3}\\
\hline  
\end{tabular}
\end{center}
\caption{Exemple de création de classifieur synthétique (CS) par la méthode du minimum}
\label{fig5}
\end{figure}

\subsection{Méthode du \textit{Maximum}}

Il s'agit de la même méthode que précédemment sauf qu'au lieu de choisir la valeur minimum, on prend la valeur maximum. Un exemple est donné en figure \ref{fig6} : on crée un classifieur synthétique CS à partir des classifieurs C1, C2 et C3.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
N Individu & C1 & C2 & C3 & CS \\ 
\hline
1 & 0.6 & 0.5 &  \textbf{0.7} & \textbf{0.7}\\ 
\hline
2 & 0.5 & 0.4 &  \textbf{0.6} & \textbf{0.6}\\ 
\hline
3 & 0.6 & 0.5 &  \textbf{0.7} & \textbf{0.7}\\ 
\hline
4 & 0.6 & 0.7 &  \textbf{0.8} & \textbf{0.8}\\ 
\hline
5 &  \textbf{0.5} & 0.4 & 0.3 & \textbf{0.5}\\ 
\hline 
\end{tabular}
\end{center}
\caption{Exemple de création de classifieur synthétique (CS) par la méthode du maximum}
\label{fig6}
\end{figure}

\subsection{Méthode de la \textit{Moyenne}}

Dans le même modèle que les deux méthodes précédentes, on réalise désormais la moyenne des valeurs associées à un individu donné. Un exemple est donné en figure \ref{fig7} : on crée un classifieur synthétique CS à partir des classifieurs C1, C2 et C3.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
N Individu & C1 & C2 & C3 & CS\\ 
\hline
1 & 0.6 & 0.5 & 0.7 & \textbf{0.6}\\ 
\hline
2 & 0.5 & 0.4 & 0.6 & \textbf{0.5}\\ 
\hline
3 & 0.6 & 0.5 & 0.7 & \textbf{0.6}\\ 
\hline
4 & 0.6 & 0.7 & 0.8 & \textbf{0.7}\\
\hline
5 & 0.5 & 0.4 & 0.3 & \textbf{0.4}\\  
\hline
\end{tabular}
\end{center}
\caption{Exemple de création de classifieur synthétique (CS) par la méthode de la moyenne}
\label{fig7}
\end{figure}

\subsection{Méthode du \textit{Trimmed Mean}}

On enlève 10\% des classifieurs (les notes les plus extrêmes, par exemple on enlève les deux notes les plus élevées et les 2 notes les plus faibles). On réalise ensuite la méthode de la moyenne standard sur les classifieurs restants. C'est une méthode régulièrement utilisée en classification.

\subsection{Méthode du \textit{Produit}}

Cette méthode réalise le produit des valeurs associées à un individu donné pour construire la classifieur synthétique. Un exemple est donné en figure \ref{fig8} : on crée un classifieur synthétique CS à partir des classifieurs C1, C2 et C3.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
N Individu & C1 & C2 & C3 & CS\\ 
\hline
1 & 0.6 & 0.5 & 0.7 & \textbf{0.21}\\ 
\hline
2 & 0.5 & 0.4 & 0.6 & \textbf{0.12}\\ 
\hline
3 & 0.6 & 0.5 & 0.7 & \textbf{0.21}\\ 
\hline
4 & 0.6 & 0.7 & 0.8 & \textbf{0.336}\\ 
\hline
5 & 0.5 & 0.4 & 0.3 & \textbf{0.06}\\  
\hline
\end{tabular}
\end{center}
\caption{Exemple de création de classifieur synthétique (CS) par la méthode du produit}
\label{fig8}
\end{figure}

Ces combineurs ne nécessitent pas d'estimer quelque chose pour les appliquer. Ce n'est pas le cas de la méthode suivante.

\subsection{Méthode de la \textit{Moyenne Pondérée}}

A chaque classifieur sera associé une pondération, dans le but de tenir compte de sa précision. Ce n'est pas l'unique méthode de ce type. Un exemple est donné en figure \ref{fig9} : on crée un classifieur synthétique CS à partir des classifieurs C1, C2 et C3.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
N Individu & C1 & C2 & C3 & CS\\ 
\hline
Pondération & 1 & 2 & 3 & -\\
\hline
1 & 0.6 & 0.5 & 0.7 & \textbf{0.6167}\\
\hline
2 & 0.5 & 0.4 & 0.6 & \textbf{0.5167}\\ 
\hline
3 & 0.6 & 0.5 & 0.7 & \textbf{0.6167}\\ 
\hline
4 & 0.6 & 0.7 & 0.8 & \textbf{0.7333}\\
\hline
5 & 0.5 & 0.4 & 0.3 & \textbf{0.3667}\\
\hline
\end{tabular}
\end{center}
\caption{Exemple de création de classifieur synthétique (CS) par la méthode de la moyenne pondérée}
\label{fig9}
\end{figure}

\section{Méthode basée sur la distance au profil moyen}

A la différence des méthodes composante par composante, la méthode basé sur la distance au profil moyen opère par combinaison de composante. L'objectif est de calculer la distance de chaque individu au profil moyen de chaque classe de la variable \texttt{kredit} (selon les N classifieurs). 

Le profil moyen de classe\_0 de la variable \texttt{kredit} correspond à la matrice de la figure \ref{fig10}. On obtient de la même façon celle de la classe\_1.  

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
 & Classe0 & Classe1 &  \\ 
C1 & $P_{10}$ & $P_{11}$ &  \\ 
C2 & $P_{20}$ & $P_{21}$ &  \\ 
… & … & … &  \\ 
CN & $P_{N0}$ & $P_{N1}$ &  \\ 
\end{tabular}
\end{center}
\caption{Matrice du profil moyen de la classe\_0 (variable \texttt{kredit})}
\label{fig10}
\end{figure}

\begin{itemize}	
	\item $P_{10}$ : proba moyenne (calculée sur les individus de la classe\_0) d'appartenance à la classe\_0 selon le classifieur 1
	\item $P_{11}$ : proba moyenne (calculée sur les individus de la classe\_0) d'appartenance à la classe\_1 selon le classifieur 1
	\item $P_{N0}$ :  proba moyenne (calculée sur les individus de la classe\_0) d'appartenance à la classe\_0 selon le classifieur N
	\item $P_{N1}$ :  proba moyenne (calculée sur les individus de la classe\_0) d'appartenance à la classe\_1 selon le classifieur N
\end{itemize}

On calcule la distance au profil moyen de la classe\_0 (D0) selon la formule suivante :

\[  D0(x_j) = \sum_{i=0}^n ((P_{i0} - (1-S_{ji}))^2) + \sum_{i}^n((P_{i1} - S_{ji})^2) \]
\newline
\begin{itemize}	
	\item $P_{i0}$ : proba moyenne (calculée sur les individus de la classe\_0) d'appartenance à la classe\_0 selon le classifieur i
	\item $S_{ji}$ : score de l'individu j selon le classifieur i
\end{itemize}

Nous obtenons donc les distances à chacune des deux classes, et on affecte donc la classe pour laquelle la distance est la plus faible (la classe dont l'individu est le plus proche).


\chapter{Résultats et interprétations}

Nous avons donc créé plusieurs classifieurs synthétiques, à l'aide de différentes méthodes. Nous allons maintenant utiliser ces classifieurs afin de déterminer pour chaque individu à classer si on lui accorde le crédit ou non. Puis, en comparant aux résultats réels, nous déterminons le taux d'erreur lié à nos décisions.

\section{Methode du \textit{favorite class model}}

Il aurait éventuellement été possible de se servir des méthodes de fusion de classifieur synthétique pour cette méthode. Cependant la constitution de l'équipe ne menant qu'à un unique classifieur, il n'était pas pertinent de faire un classifieur synthétique.

\section{Méthode du \textit{Minimum}}

Pour juger de la performance d’un modèle, plusieurs indicateurs existent, notamment la courbe ROC. Tous les indicateurs de performance présentés dans cette étude ont été calculés sur l’échantillon test, correspondant à 30\% de notre base de départ.
 
Plus l’aire sous la courbe est élevée (proche de 1), plus le modèle est performant. L’aire sous la courbe ROC (AUC \footnote{ Area Under the Curve }) pour l’échantillon test (voir \ref{fig11}) en utilisant la méthode du \textit{Minimum} est de 0,80, ce qui est tout à fait convenable. De plus, nous avons calculé une erreur de 30\%.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.3066667} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{ 0.2793333} &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.02733333} &  &  \\ 
AUC & \multicolumn{1}{c}{0.808281 } &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode du minimum}
\end{center}
\end{figure}  

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/min}
\caption{courbe ROC de la méthode du minimum}
\label{fig11}
\end{center}
\end{figure}  

\section{Méthode du \textit{Maximum}}

Nous utilisons la même démarche pour la méthode du \textit{Maximum}. Nous obtenons la courbe ROC ci-dessous en \ref{fig12}. Cette fois, l'aire sous la courbe est de 0,77 , ce qui est toujours satisfaisant mais inférieur à la méthode du minimum. L'erreur est la même que pour la méthode du \textit{Minimum}.


\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.3066667} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{ 0.2793333} &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.02733333} &  &  \\ 
AUC & \multicolumn{1}{c}{0.7721743 } &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode du maximum}
\end{center}
\end{figure}

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/max}
\caption{courbe ROC de la méthode du maximum}
\label{fig12}
\end{center}
\end{figure}  

\section{Méthode de la \textit{Moyenne}}

Pour la méthode de la \textit{Moyenne}, nous observons la courbe ROC de la figure \ref{fig13}).

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.3066667} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{ 0.2763333} &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.03033333} &  &  \\ 
AUC & \multicolumn{1}{c}{0.814217} &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode de la moyenne}
\end{center}
\end{figure}

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/mean}
\caption{courbe ROC de la méthode de la moyenne}
\label{fig13}
\end{center}
\end{figure} 

\section{Méthode de la \textit{Trimmed Moyenne}}

Pour la méthode de la \textit{Moyenne Pondérée}, nous observons une aire sous la courbe encore de l'ordre de 0,81 (voir en figure\ref{fig14}). Tous les résultats restent identique à la méthode de la moyenne.

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.3066667} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{ 0.2763333} &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.03033333} &  &  \\ 
AUC & \multicolumn{1}{c}{0.8130887} &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode de la trimmed moyenne}
\end{center}
\end{figure}

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/trimmedmean}
\caption{courbe ROC de la méthode de la trimmed moyenne}
\label{fig14}
\end{center}
\end{figure} 

\section{Méthode du \textit{Produit}}

Pour la méthode du \textit{Produit}, nous observons des résultats similaires aux autres méthodes composante par composante (voir en figure \ref{fig15}).

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.3033333} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{  0.2761667 } &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.02716667} &  &  \\ 
AUC & \multicolumn{1}{c}{0.8171115} &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode du produit}
\end{center}
\end{figure}

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/produit}
\caption{courbe ROC de la méthode du produit}
\label{fig15}
\end{center}
\end{figure} 

\section{Méthode de la \textit{Médiane}}

Enfin, pour la méthode de la \textit{Médiane}, nous observons encore des résultats similaires  (voir en figure \ref{fig16}).

\begin{figure}[h!]
\begin{center}
\begin{tabular}{llll}
Proportion d'erreur & \multicolumn{1}{c}{0.2933333} &  &  \\ 
Proportion d'erreur (Refus de bons clients) & \multicolumn{1}{c}{ 0.2636667 } &  &  \\ 
Proportion d'erreur (Acceptation de mauvais clients)  & \multicolumn{1}{c}{0.02966667 } &  &  \\ 
AUC & \multicolumn{1}{c}{0.8069564} &  &  \\ 
\end{tabular}
\caption{récapitulatif des résultats pour la méthode du produit}
\end{center}
\end{figure}

\begin{figure}[h!]
\begin{center}
\includegraphics[width=0.6\textwidth]{courbes_roc/new_images_roc_to_include/median}
\caption{courbe ROC de la méthode de la médiane}
\label{fig16}
\end{center}
\end{figure} 

Globalement, on peut constater que les méthodes composante par composante offre des résultats similaires qui n'améliore pas significativement la méthode de régression classique. 

\section{Méthode basée sur la distance au profil moyen}

Cette fusion par composition de composante nous a permis d'obtenir globalement des meilleures prévision que pour les méthodes composante par composante. On obtient en effet un taux d'erreur relativement bas (\textit{0.2333333}) et un AUC relativement bon (\textit{0.8080357})


\chapterEt{Conclusion}

L'étude menée sur les données de la banque allemande, nous a permis d'analyser plusieurs aspects des techniques de scoring par fusion de classifieurs. 
La méthode du \textit{favorite classe model}, qui permet de constituer une équipe de classifieurs, sur une variable à deux modalités n'apporte pas plus d'information qu'une régression logistique classique. D'autre part, la constitution d'équipes selon la méthode du \textit{random choice} offre quant à elle un large choix de combinaisons possibles dont il faudrait extraire les plus significatives. 
Enfin, la fusion des classifieurs selon les différentes méthodes a permis d'obtenir des résultats mitigés dans le cas de la combinaison composante par composante. Cependant, l'approche par combinaison de composantes offre de meilleurs résultats qu'un classifieur unique. On a donc réussi à tirer profit de l'information donnée simultanément par plusieurs classifieurs. 
Afin de donner un regard critique sur notre analyse, il serait intéressant de tester notre modèle en l'utilisant sur un nouveau jeu de données, ce qui serait une première étape dans la validation de nos travaux. 

\chapterEt{Annexes}

\lstinputlisting[language=R, caption=Code R : programme principal]{../CodeR/main.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{favorite class model}]{../CodeR/script-fcm.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : calcul des clusters de classifieurs]{../CodeR/diversite.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{random choice model}]{../CodeR/script-rcm.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{minimum}]{../CodeR/rcm-min.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{maximum}]{../CodeR/rcm-max.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode de la \textit{moyenne}]{../CodeR/rcm-mean.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode de la \textit{trimmed moyenne}]{../CodeR/rcm-trim-mean.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode de la \textit{médiane}]{../CodeR/rcm-med.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{poduit}]{../CodeR/rcm-prod.R}\label{fig:codeR}

\lstinputlisting[language=R, caption=Code R : méthode du \textit{profil moyen}]{../CodeR/profil-moyen.R}\label{fig:codeR}

\end{document}

